import urllib.robotparser

# 创建一个RobotFileParser对象
rp = urllib.robotparser.RobotFileParser()

# 设置百度的robots.txt文件URL
rp.set_url("https://www.baidu.com/robots.txt")

# 读取robots.txt文件
rp.read()
# 加入浏览器请求头，模拟浏览器
headers ={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac 0s X10 11 4)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36' }
# 检查是否允许抓取百度首页
url = "https://www.baidu.com"
is_allowed = rp.can_fetch("/baidu", url)

if is_allowed:
    print(f"可以抓取 {url}")
else:
    print(f"不能抓取 {url}")

# 也可以检查其他路径
url2 = "https://www.baidu.com/s?wd=python"
is_allowed2 = rp.can_fetch("*", url2)

if is_allowed2:
    print(f"可以抓取 {url2}")
else:
    print(f"不能抓取 {url2}")
